加权最小二乘法 协方差矩阵 多元高斯分布
定义
BLUE 是 Best Linear Unbiased Estimator 的缩写,即“最佳线性无偏估计”。在线性测量模型
中,若
并且 正定、 满列秩,则加权最小二乘估计
是在所有线性无偏估计中方差最小的估计。
线性、无偏、最小方差
“线性”表示估计量可写成
其中 不随观测值 改变。“无偏”要求对所有真实 都有
因为 ,无偏条件等价于
“最小方差”不是只比较某一个坐标,而是比较任意线性组合的方差。若 是加权最小二乘对应矩阵,则对任意满足 的估计,都有
BLUE 估计矩阵
加权最小二乘最小化
一阶条件给出正规方程
因此
直接检查可得
所以该估计是无偏线性估计。
方差推导
加权估计的协方差为
代入 :
因此
若另一个无偏线性估计写为 ,则由 和 得到
同时 ,所以
于是
因为 半正定,加权最小二乘的估计协方差不大于任何其他无偏线性估计的协方差。
心率三次测量例子
同一个心率 有三次独立测量 :
若三次测量的方差是
则
BLUE 估计为
其方差为
这比只使用任何一次测量都更可靠;权重来自测量方差的倒数,而不是来自观测值大小本身。
与高斯假设的关系
BLUE 定理本身不需要误差服从高斯分布,只需要零均值、协方差 、线性模型以及无偏估计条件。若进一步假设误差是多元高斯,那么加权最小二乘同时也是最大似然估计,因为高斯负对数似然正比于
因此高斯假设解释了为什么选择这个二次目标;BLUE 定理则说明即使没有完整高斯分布,在无偏线性估计类中这个估计仍有最小方差。
边界条件
BLUE 的比较范围只包含线性无偏估计。带偏估计可能用偏差换取更小均方误差,非线性估计也不在定理比较范围内。若 不满列秩,则 不可逆,未知量不能被唯一无偏估计;若 奇异,需要先明确噪声退化约束或改用广义逆形式。若使用了错误的协方差矩阵,估计仍可能无偏,但通常不再达到真实方差意义下的最优。
加权最小二乘和 BLUE 都属于 平方误差框架。平方误差适合方差最小化和高斯噪声,但对离群点敏感,并且不会主动产生稀疏解。若任务更重视稳健性或稀疏性,常改用 目标:
问题的目标非光滑,通常不能通过线性正规方程直接求解。